跳到主要内容

GB 2312

阐述

GB 2312,全称 GB/T 2312–1980《信息交换用汉字编码字符集·基本集》是中国在 1980 年发布的字集及编码标准,收录了 6763 个汉字和一些其他符号。汉字分为一级汉字(3755 个)和二级汉字(3008 个)。

区位

对汉字进行分区处理,共 94 区,每区有 94 个码位。

  • 01 ~ 09 区:非汉字
  • 16 ~ 55 区:常用汉字,拼音排序
  • 56 ~ 87 区:非常用汉字,部首排序
  • 10 ~ 15 区、88 ~ 94 区为空

对于同一个区位号,有不同的编码方式:

编码

ISO 2022-CN(国标码、交换码)

为了避开 0x00 ~ 0x20,将区码和位码分别加上 0x20 得到双字节编码。因此,高位和低位的空间分别为 0x21 ~ 0x7E.

EUC-CN(机内码、内码)

为了避开整个 ASCII,将区码和位码分别加上 0xA0 得到双字节编码,也即把国标码的高位 0 换成 1。因此,高位和低位的空间分别为 0xA1 ~ 0xFE.

实例

「万」字的区位码是 45-82,

  • ISO 2022-CN:编码为 (77, 144),十六进制 4D 72
  • EUC-CN:编码为 (205, 242),十六进制 CD F2

性质

相关内容

参考文献